#Seedance 2.0
seedance 2.0 實測:影視圈的“ChatGPT 時刻”真的來了!
這兩天我 X 的時間線基本都被 seedance 2.0 佔領了,從看官方案例到自己經過長時間的實測,我可以說這絕對是視訊領域的 Nano Banana 時刻。或者說:是影視領域的 ChatGPT 時刻。這篇測評其實做了很久,因為這次的更新真的太猛了,每個方面其實都可以單獨寫一篇文章。在這麼多更新當中,最讓我印象時刻的,或者讓我覺得對這個行業影響最大的是 4 個方面。我們一個個來聊聊。01|它具備了真正的“導演思維”我經常聽到一句話叫“人人都是導演”,說實話,以前我覺得這就是句忽悠人的雞湯。但用完 seedance 2.0,我第一次覺得:這事兒可能真成了。先看一個簡單的例子。這個例子我沒有用什麼複雜的技巧,只用了一張參考圖,和下面的提示詞:@圖片1 在香港街頭和多名黑衣男子激烈打鬥,最後那些黑衣男子全部倒地不起。最後@圖片1 怒吼:“還有誰?”看出來了嗎?生成的視訊一氣呵成。最可怕的是,它自動運用了分鏡邏輯。以前的 AI 視訊,通常只能生成一個單鏡頭。而這裡,鏡頭運動、角度切換、音效,全是它自己“腦補”並剪輯好的。對於動畫導演來說,特效也直接好了。提示詞:日式熱血動漫風格。一個渾身纏繞金色雷電的少年劍士,與一個操縱暗紅血霧的惡鬼對峙。少年拔刀瞬間化作一道金色閃電穿過血霧,畫面瞬間定格為黑白線條的衝擊幀,隨後惡鬼的身體在雷光中消散。一個視訊裡面有多個鏡頭其實不是新鮮事,但之前的 AI 視訊裡面的多鏡頭切換是非常生硬的,而且大規模的場景調度、鏡頭切換也容易翻車,而現在可以做到非常絲滑。以往我們做視訊,是拍攝單鏡頭 -> 剪輯師/導演組裝 -> 加特效 -> 加音效。剪輯的功力直接決定片子的生死。現在界限模糊了。很多人說剪輯行業要完了,我不敢說死,但seedance 2.0 確實已經不是在“生成素材”,而是在“直接出片”。它不僅僅是個畫師,它現在是個導演。02|令人髮指的精準操控雖然AI 視訊模型已經非常強大,寫一些簡單的提示詞就能生成不錯的片段,但之前我最苦惱的其實是這種生成太隨機了,或者說“太不可控”了。(這裡說的是內容,不是質量)。而現在 seedance 徹底改了這一切。它可以通過多種方式,非常精準的控制視訊的生成。比如我希望精準控制到每個鏡頭。我寫了這麼具體的提示詞:生成一段專業賽車電影預告。0-3秒: 特寫鏡頭。參考 @圖片2,賽車手眼神犀利,儀表盤指針瞬間打到紅區,手部快速換擋。音效:引擎轟鳴聲。4-8秒: 高速跟拍。參考 @圖片1,黃色跑車在賽道彎道處極速漂移,輪胎捲起大量白煙,車尾甩動。一輛黑色賽車緊貼著試圖超車。9-13秒: 慢動作(升格)。跑車沖上坡道騰空飛起。鏡頭在空中圍繞靜止的車身旋轉 360 度,展示懸掛細節。背景是夕陽。14-15秒: 正常速度。賽車重重落地,衝過終點線。畫面黑屏,出現片名《FAST & FURY》。大家注意看一下提示詞,我精準控制了每個時間段的具體內容、鏡頭快慢、音效以及標題。可以說每一個的結果都非常精準,特別是慢鏡頭以及最後黑屏後出現片名,非常有大片預告片的感覺。另一個讓我非常驚訝的是,我們專業拍攝中用到的分鏡表或者分鏡圖,都可以直接用來生成視訊了。比如我有這樣一張分鏡表:圖:分鏡表現在我只要直接把這圖發給 seedance,然後在提示詞裡面說:參考圖片1 的專題片的分鏡頭指令碼,參考圖片1 的分鏡、景別、運鏡、畫面和文案,創作一段15s的關於“節氣·流轉”的新中式國風片頭就可以得到這樣一個專業的視訊:至於分鏡圖,完全不在話下,甚至更高難度的,直接給它漫畫分鏡,它都能直接出片。比如這幅漫畫:圖:漫畫素材使用簡單的提示詞:將@圖片1 以從左到右從上到下的順序進行漫畫演繹,保持人物說的台詞與圖片上的一致,分鏡切換以及重點的情節演繹加入特殊音效,整體風格溫馨甜蜜;演繹方式參考@視訊1這裡同時使用了圖片和視訊來做參考,圖片就是設定每個鏡頭的內容,視訊主要用來參考風格和配音。不得不說,這非常強大。更絕的是,它還可以直接通過音樂卡點來控制視訊節奏。比如我想做一個模特換裝的卡點視訊,我把模特和需要換的衣服放進來,最後在放一個卡點音樂。圖:seedance 中提示詞寫法然後就可以得到一個非常不錯的卡點視訊。從完全隨機生成到“精準控制”,這不僅是一個技術上的巨大飛躍,也是 AI 視訊能直接進入生成的一個標誌。03|不僅是生成,更是“復刻”上面的能力雖然很強,但像我這樣的大部分人畢竟不是影視專業出身的,寫很豐富、專業的提示詞,這實在是困難。玩過抖音的人應該都知道一個功能叫“做同款”,不愧是同一個爸爸(位元組)出品,這個功能也移植到了 seedance 2.0,而且變得更加強大。不過它改了名字,叫“全能參考”。什麼樣叫“全能參考”,我們以前都知道文生視訊、圖生視訊,而現在還可以組合參考多個視訊、音訊來生成新的視訊。抖音上有很多酷炫的運鏡或者舞蹈,一般人想學太難了,現在“參考”就行了。比如我有一個這樣的模特(AI 生成的):圖:素材圖(AI 生成)然後想讓她模仿一個抖音博主的視訊,只要用提示詞:@圖片1的女生作為主體,參考@視訊1 的運鏡方式進行有節奏的推拉搖移,女生的動作也參考@視訊1中女子的舞蹈動作,在舞台上活力十足地表演可以看到這裡的輔導動作、運鏡基本都是 1:1 復刻了。再來看看這麼🐂🍺的動作片是怎麼做出來的。我需要寫一大堆提示詞,說明男的怎麼運動、女的怎麼打嗎?這太難了,有這能力,我都可以去當武術指導了。在 seedance 2.0 里面操作特別簡單,一張素材圖(NBP 生成的):圖:素材圖(AI生成)一個武術指導。。哦不,一個參考動作視訊(來自即夢官方):然後一個簡單的提示詞:@圖片1 中的角色在激烈打頭,動作模仿@視訊1一樣的,這種復刻幾乎是完美的。以前我經常看到動作片(功夫片)裡面會有個武術指導,未來的武術指導看來都不需要了,一個視訊來指導就行。這麼說,武術指導又下崗了?04|自帶“嘴替”的同期聲這次 Seedance 2.0 還有一個重大的更新是同期聲,能同時生成貼合視訊內容的音效、對白。同期聲的能力說實話也見怪不怪了,Veo 3.1、Sora 2 都有,但這一次 Seedance 2.0 提升了一個高度。除了極其逼真以外,還支援多種語言(據說是 8 種),甚至還包括方言(比如四川話、粵語),更絕的是,可以做到口型同步。受限於一篇公眾號只能放 10 個視訊的原因,這裡開始沒法舉例了,可以看前面有對白的案例。05|談談錢:貴嗎?說說價格。實際上來說,如果你用圖生視訊,應該感覺不到價格問題。10s 的視訊也只需要 60 個積分(10 個積分相當於 1 元 RMB)。但如果是用到了視訊參考,會發現立馬飆升到了 100 多(一個視訊參考會多 70 個積分)圖:seedance 2.0 積分消耗我前面那個12s 的舞蹈+運鏡模仿,消耗了 156 積分,也就是 15.6 塊錢。而且坦率的說,這篇文章寫完,我即夢剩餘的 1 年的會員積分全部消耗完了(一共 1500 多)。這貴嗎?直覺上好像是挺貴的,但真的想想現實當中如果要去拍一段同樣時長視訊、或者做一段類似特效,要花多少時間、多少錢,我會覺得這 AI 還是巨便宜。以前我覺得 AI 貴,有個很大的問題是因為要抽卡,可能 70% 都是廢片,但實際測試下來,seedance 2.0 的成功率非常高,我覺得 80% 以上都是可用的(純個人測試感覺)06|當然,槽點也有seedance 2.0 當然不是完美的,最明顯的是視訊當中會出現中文亂碼,不過我覺既然 seedream 中文處理那麼完美,視訊裡面解決中文的問題只是遲早的事情。另外一點是,生成的速度真的是有點慢,這也導致一篇測評搞了很久。最讓我心態崩了的是:稽核太變態了!可能是因為版權問題,明星、公眾人物的圖片幾乎一律不讓用。關鍵詞稽核更是“玄學”,我根本不知道哪個詞觸犯了天條。比如前面那個飛車視訊,我反覆改了起碼 30 次以上,全是“稽核失敗”。(它也不告訴我具體哪個詞有問題,這樣合適嗎??圖:seedance 2.0 稽核問題這種挫敗感真的很搞人心態。最後只能被迫放棄原來的方案,改成了大家看到的那個簡化版。寫在最後seedance 2.0 這次更新貌似非常低調,沒看到太多宣傳。目前在即夢上可以使用,但好像也是部分人可以看到。豆包裡面還沒上線,想用的的朋友再等等。其實我早就關注到了,但真的發現它的更新點太多,而不知道該從何下手。除了前面介紹到的這些,它的視訊延長功能也非常強大,就相當於續拍鏡頭。還有就是可以進行視訊編輯,比如修改參考視訊裡面的劇情、替換裡面人物。雖然這次的更新很低調,但這幾天我聽到很多影視創作者群都是“炸鍋”狀態,連影視颶風的 Tim 這樣的頭部大佬,都連夜發視訊感嘆這次更新帶來的震撼。當行業頂尖的創作者都開始感受到壓力時,你就知道,這次不是狼來了,是狼真的進屋了。尤其是對短劇和漫劇行業來說,這無疑是一次降維打擊:對於短劇: 那些原本需要昂貴場地、服化道才能堆出來的“豪門”、“玄幻”特效,現在可能只需要幾十塊錢的積分就能生成。成本的邏輯,徹底變了。對於漫劇: 以前不僅要畫,還要做複雜的動態效果,現在直接把分鏡圖扔進去,靜態漫畫瞬間變成有運鏡、有演技的電影感視訊。如果說之前的 AI 視訊還是“玩具”,那我真的覺得,現在的能力已經到了可以直接上生產的程度了。對於個人創作者來說,這絕對是個巨大的紅利。你可能不需要太專業的背景,就能創作出廣告級的內容。但對於傳統影視從業者來說,那把懸在頭頂的劍,可能真的掉下來一半了。 (AI范兒)
Seedance 2.0著實恐怖了些
這個周末,字節跳動的新視訊生成模型在全網被炒得沸沸揚揚。“殺死比賽”、“效果爆炸”等AI時代已經被用爛了的詞瞬間又飄得滿屏都是。有人說,字節的Seedance 2.0可能會是繼Google的Veo 3和OpenAI的Sora 2之後的又一款革命性、里程碑式的AI視訊生成產品。正當我懷疑這些司空見慣的說法,是不是年前AI企業引流的又一次概念炒作時,知名B站UP主“影視颶風”凌晨一點發佈的一條視訊給出了一個確切的答案:Seedance 2.0的能力強到有些恐怖。01 強者,無需多言先來看看官方文件中給出的一些視訊demo:提示詞:男人@圖片1下班後疲憊的走在走廊,腳步變緩,最後停在家門口,臉部特寫鏡頭,男人深呼吸,調整情緒,收起了負面情緒,變得輕鬆,然後特寫翻找出鑰匙,插入門鎖,進入家裡後,他的小女兒和一隻寵物狗,歡快的跑過來迎接擁抱,室內非常的溫馨,全程自然對話。我對視訊和電影創作並無深刻理解,幾乎完全無法分辨這到底是AI的生成還是人類的創作。生成一些萌寵的動畫短片也是不在話下:提示詞:在“貓狗吐槽間”裡的一段吐槽對話,要求情感豐沛,符合脫口秀表演:喵醬(貓主持,舔毛翻眼):"家人們誰懂啊,我身邊這位,每天除了搖尾巴、拆沙發,就只會用那種“我超乖求摸摸”的眼神騙人類零食,明明拆家的時候比誰都凶,還好意思叫旺仔,我看叫“旺拆”還差不多哈哈哈“旺仔(狗主持,歪頭晃尾巴):"你還好意思說我?你每天睡18個小時,醒了就蹭人類腿要罐頭,掉毛掉得人類黑衣服上全是你的毛,人家掃完地,你轉身又在沙發上滾一圈,還好意思裝高冷貴族?"除此之外,“影視颶風”發佈的視訊中還展示了蜜雪冰城的雪人大戰外企咖啡店機器人、奧特曼打怪獸、功夫高手以一敵多、女運動員長跑和拳擊的商業短片等場景,伴隨著流暢的視覺效果和毫無破綻的多角度運鏡。發佈僅僅兩天,就已經讓各大專業影評人讚不絕口、讓普通使用者忘記了AI視訊生成的邊界。在字節發佈的Seedance 2.0文件中,研究團隊用很克制的語言描述了驚人的技術突破:物理規律更合理、動作更流暢、多模態參考能力支援文字、圖片、音訊和視訊的自由組合。針對以往視訊生成的難題,Seedance 2.0也做了針對性的最佳化:使用者可以通過上傳參考視訊實現高難可控的運鏡和精準的動作復刻,在一致性提升的基礎上實現視訊延長、音樂卡點、多語言配音、創意劇情補全等使用功能。若是從眼光將3D世界轉向2D動畫,Seedance 2.0則能給出更多驚喜:它能將漫畫分鏡自動轉變為動畫,能識別2D角色的眼睛、頭髮、服飾為獨立可動的圖層,避免早期AI將平面圖像誤判為偽3D的問題。一時間,AI圈沸騰了:民用級視訊生成即將跨越臨界點,技術執行問題已經被解決,擺在人們面前的已經是創作決策問題。不過,技術的高光時刻,背後往往伴隨著陰影。02 令人不安的“巧合”見識過Seedance 2.0的強大後,“影視颶風”視訊的後半段卻給出了一個奇怪的案例:出鏡者Tim將自己的臉部照片和提示詞一併上傳給模型,模型自然返回了一段以他為主角的AI科普視訊。可是,視訊中出現的不僅有他的形象,還有和他幾乎一樣的聲音。而在一段實景視訊中,背景中的建築更是與他的公司大樓極其相似。更詭異的是,評論區裡還有一位測試者,同樣只提供了臉部照片並要求模型生成夜跑場景。結果畫面中的人物,穿著這位測試者上周剛買的跑鞋,連顏色和鞋款版型都分毫不差,儘管他沒在提示詞中透露任何相關資訊。作為技術愛好者,我堅定認為這不是什麼“靈異現象”。於是,我馬上去仔細讀了一遍字節發佈的文件,官方的解釋是這樣的:模型展現出了此類能力可歸因於“多模態參考”和“一致性提升”。“多模態參考”指模型能夠同時解析圖像、音訊等異構資料,實現跨模態特徵對齊。“一致性提升”則依賴對海量視訊中人物、物體、場景共現規律的統計學習。從純理論角度上來說,模型能夠生成與Tim和那位測試者極其相像的視訊並非不可能,因為它在問世之前已經見過足夠多“人臉+聲音+服飾+環境”的組合樣本。不過,理論層面上的合理恐怕無法消解個人體驗的不適。如果AI真的能在毫無明確提示的情況下猜中跑鞋,則必然是獲取到了購買記錄等相關資訊;能夠準確模擬聲音和建築,則證明它已經多次欣賞過Tim拍攝的相關視訊。這種精準雖然令人瞠目結舌,但也早已超越統計機率的舒適區間,帶給人們一個不安的猜想:我們的生活,是否早已成為訓練資料中的一部分?答案是肯定的。因為抖音的使用者服務協議中早已寫明:“全球範圍內、免費、非獨家、可多層次再許可的權利”這個表述,或多或少體現出了一定的模糊性。我們無從得知這裡面是否包括AI模型的自動化訓練,但可以確信的是,人們的生活切片正在被用於建構“複製自己”的生成模型。評論區裡充斥著不滿的呼聲:“誰還敢在社交平台分享生活?”這並非過度恐慌,而是人們潛意識中資料主權意識開始逐漸覺醒。我們早已習慣技術帶來的便利,卻總是無視資料控制權的悄然流失。03 創作的末路:創意被演算法稀釋Seedance 2.0突如其來的技術衝擊,受到影響的可遠遠不止人們的日常生活。由此變得支離破碎的,還有創作者的精神世界。短短9分鐘的視訊,評論區卻體現出人生百態。一位自由畫師寫下留言:“我被迫使用AI工作流進行創作,卻絲毫感受不到任何快樂,因為我只是在重複生圖、拼接、再生圖的流程。在我的認知中,它根本不是我的作品,因為我沒有參與任何細節的推導。”這位畫師懷念的不僅是繪畫技術本身,更是人們參與藝術創作過程時身臨其境的感受。每一處細節的反覆推敲和修改、委託人收到作品時表現出的認同和喜愛、自我價值的實現,這些充分體現藝術創作內在價值的時刻,不該由“提示詞→生成→篩選”的流程所替換。而作為程式設計師,我也深有體會。剛上大學接觸專業課的那段時間,一個課程設計會讓全班大部分同學焦頭爛額。從資料結構,到運行邏輯,再到UI介面設計,初出茅廬的新生們少則幾周,多則一個月,才能完成一個基礎功能完備,介面談不上多美觀的小應用。那種運行上百遍,最後一次終於不報錯成功運行的釋懷感,我已經很久沒有感受過了,因為這些任務在AI眼裡,都是僅需幾分鐘即可完成的東西。科技進步利多了人類,但也讓以前需要經年累月積累的專業壁壘加速瓦解。無論是那個行業的從業者,看到自己辛苦學了多年的知識和技術被輕輕鬆鬆實現和超越,都難免因為“努力貶值”而感到失落。更深層的憂慮來自於行業結構的極端化。米哈游創始人蔡浩宇曾經給出過一個有點誇張的預言:AI時代,遊戲創作將只屬於兩類人——0.0001%的頂級專業團隊能創造出前所未有的遊戲作品,99%的業餘愛好者可以根據自己的喜好自由創作遊戲。其餘的開發者,建議轉行。這個預言能否成真並不重要,但Seedance 2.0的創作能力與之描述的如出一轍。當AI能夠輕鬆復刻電影等級的運鏡和情緒演繹,創作就會被演算法系統性地結構,而不再是人類獨有的優勢。強大的工具已經發到了每個人的手上,但面對“費半天勁做出來的東西還不如AI”的質問時,我卻不知道該如何回答。04 從“技術改變生活”到“生活改變技術”開篇那句“技術執行問題已經被解決,擺在人們面前的已經是創作決策問題”,至此得以解釋。人們已經無需擔心“AI能不能做出視訊”,只需要判斷“那條AI生成的視訊更好”,再把選擇反饋給AI,即可完成多模態資料的流動閉環。在無數次循環往復中,AI不僅僅能生成內容,還將學會定義何為“優質創意”、篩選出適合指定風格視訊的使用者。如此一來,人類就從創作的主體變成了被演算法評估的客體。我很認同評論區的一句話:當AI能夠輕鬆實現所有人的“創意”,甚至是復刻人類自己,創意就會失去價值,個體將反過來變成AI挑選的對象。技術不再服務於人,而是重構人的價值觀,這種虛無感實在有些令人不寒而慄。Seedance 2.0的發佈實則是AIGC技術從工具向價值的一次越界嘗試。它不再侷限於按部就班地執行使用者指令,而是開始試圖理解和復現人類創作中難以用言語精準表達的特質,像是情緒的變化、風格的延續或是跨模態的隱喻關聯。這種能力的躍遷值得所有人肯定,但也請不要忘記,躍遷所需要的能量正是來自於我們日常生活中的點點滴滴。“技術改變生活”,這是一句數字時代以來流傳了很久的樂觀敘事。但Seedance 2.0的技術演進似乎在暗示:生活正在以我們難以察覺的方式改變著技術。面容、聲音、消費記錄和社交痕跡都開始成為演算法的養料,但資料主權意識和制度保障尚未完全建立。技術並無善惡之分,但資料的流向決定了權力的歸屬。人類是否還有自己資料的最終解釋權,取決於AI時代“創作”這個詞的定義:它可以是演算法對生活的精準復刻,也可以是人類意志的無限延伸。Seedance 2.0正在讓所有人都直面一個根本問題:是否願意用生活的全部細節,來交換技術的無限便利?對如此強大的視訊生成能力,我們似乎沒有拒絕使用的理由。而面對如此快速的技術演進,不知道我們是否還能有拒絕使用的權利。 (錦緞)